Data

Aperçu de la base de données
id_mutation date_mutation numero_disposition nature_mutation valeur_fonciere adresse_numero adresse_suffixe adresse_nom_voie adresse_code_voie code_postal code_commune nom_commune code_departement ancien_code_commune ancien_nom_commune id_parcelle ancien_id_parcelle numero_volume lot1_numero lot1_surface_carrez lot2_numero lot2_surface_carrez lot3_numero lot3_surface_carrez lot4_numero lot4_surface_carrez lot5_numero lot5_surface_carrez nombre_lots code_type_local type_local surface_reelle_bati nombre_pieces_principales code_nature_culture nature_culture code_nature_culture_speciale nature_culture_speciale surface_terrain longitude latitude
2022-1 2022-01-03 1 Vente 55000 13 RUE DE LA LIBERTE 2280 1000 01053 Bourg-en-Bresse 01 NA 01053000AM0102 7 24.10 NA NA NA NA NA NA 1 2 Appartement 24 1 NA 5.22 46.20
2022-2 2022-01-03 1 Vente 143000 NA CHAMP COCHET B010 1480 01398 Savigneux 01 NA 01398000ZE0184 NA NA NA NA NA NA NA 0 NA NA NA S sols 84 4.85 46.00
2022-2 2022-01-03 1 Vente 143000 NA CHAMP COCHET B010 1480 01398 Savigneux 01 NA 01398000ZE0185 NA NA NA NA NA NA NA 0 NA NA NA S sols 88 4.85 46.00
2022-2 2022-01-03 1 Vente 143000 98 RTE DE LA DOMBES 0055 1480 01398 Savigneux 01 NA 01398000ZE0187 1 123.23 NA NA NA NA NA NA 1 2 Appartement 140 3 NA 4.85 46.00
2022-3 2022-01-04 1 Vente 300 NA AUX PIERRES B031 1480 01243 Messimy-sur-Saône 01 NA 012430000A0643 NA NA NA NA NA NA NA 0 NA NA NA T terres 510 4.75 46.05
2022-4 2022-01-06 1 Vente 255000 282 RTE DE POISATON 0130 1560 01230 Mantenay-Montlin 01 NA 01230000ZM0124 NA NA NA NA NA NA NA 0 1 Maison 108 5 S sols 649 5.10 46.42
2022-4 2022-01-06 1 Vente 255000 NA LA FREGONIERE B047 1560 01230 Mantenay-Montlin 01 NA 01230000ZM0126 NA NA NA NA NA NA NA 0 NA NA NA S sols 360 5.10 46.42
2022-5 2022-01-03 1 Vente 525000 NA PL DE LA CROIX BLANCHE 0300 1390 01333 Saint-André-de-Corcy 01 NA 01333000AN0023 NA NA NA NA NA NA NA 0 NA NA NA S sols 50 4.95 45.93
2022-5 2022-01-03 1 Vente 525000 217 PL DE LA CROIX BLANCHE 0300 1390 01333 Saint-André-de-Corcy 01 NA 01333000AN0186 NA NA NA NA NA NA NA 0 2 Appartement 126 4 S sols 628 4.95 45.93
2022-5 2022-01-03 1 Vente 525000 217 PL DE LA CROIX BLANCHE 0300 1390 01333 Saint-André-de-Corcy 01 NA 01333000AN0186 NA NA NA NA NA NA NA 0 4 Local industriel. commercial ou assimilé 424 0 S sols 628 4.95 45.93

Visualisation géographique

Données manquantes

Variables identifiantes

Variables catégorielles

Description

Répartition par niveau

Variables quantitatives

Description

Distribution par variable

Résumé statistique des variables quantitatives
Moyenne Ecart-type Min Q25% Q50% Q75% Max % NA
surface_reelle_bati 115 830 1.00 49 75 104 290 000 66
surface_terrain 2 507 11 352 1.00 234 571 1 480 3 805 880 35
lot1_surface_carrez 63 87 0.29 36 55 74 6 656 89
lot2_surface_carrez 64 42 0.67 44 61 77 5 141 96
lot3_surface_carrez 74 83 0.90 42 63 89 2 876 100
lot4_surface_carrez 88 150 1.01 39 67 107 2 455 100
lot5_surface_carrez 93 94 3.30 36 71 126 1 334 100

On remarque que l’étendue de la distribution des différentes variables quantitative est importante. Pour représenter leurs histogrammes de sélectionner les valeurs inférieures ou égales au 3ème quantile de chaque série.

Variable cible

Résumé statistique de la variable cible
Moyenne Ecart-type Min Q25% Q50% Q75% Max % NA
valeur_fonciere 530 465 3 137 795 0.15 78 000 176 000 320 000 271 464 000 0.71

Analyse statistique

Valeurs abberantes (outliers)

La table @ref(tab:statsquantitab) indique des disparités importantes au sein de chaque variable quantitative. L’objectif est d’identifier les valeurs aberrantes à l’aide d’une méthode statistique. On décide d’utiliser le filtre d’Hampel qui classe comme outliers les valeurs situés en dehors de l’intervalle \(I\) défini comme suit :

\[ I = [\tilde{X} - 3\times \text{MAD} ; \tilde{X} + 3\times \text{MAD}] \quad \text{avec MAD}= \text{median}(|X_i - \tilde{X}|) \]\(\tilde{X}\) est la médiane de la série \(X\) et MAD l’écart absolu médian.

Proportion d’outliers par variable
%
surface_terrain 13.8971
valeur_fonciere 12.5674
surface_reelle_bati 2.8254
lot1_surface_carrez 0.6147
lot2_surface_carrez 0.2045
lot3_surface_carrez 0.0318
lot4_surface_carrez 0.0067
lot5_surface_carrez 0.0026

Modélisation